BoolQ ist der Name eines Datensatzes mit knapp 16.000 Fragen, die mit ja oder nein zu beantworten sind. Er lässt sich einsetzen, um die NLI-Leistung (Natural Language Inference) und die Fähigkeit eines trainierten Sprachmodells zur Beantwortung von Fragen zu prüfen und zu bewerten. Jede Aufgabe besteht aus der Frage selbst und einem Absatz aus einem Wikipedia-Artikel, aus dem sich die richtige Antwort ableiten lässt.
Das Kürzel BoolQ steht für Boolean Questions (im Deutschen: Boolesche Fragen). Es handelt sich um einen Datensatz mit knapp 16.000 Fragen in englischer Sprache, die mit ja oder nein zu beantworten sind. BoolQ wird eingesetzt, um die Natural Language Inference (NLI) trainierter Sprachmodelle und ihre Fähigkeit zur Beantwortung von Fragen zu prüfen und zu bewerten. Entwickelt wurde der Datensatz im Jahr 2019 von den Wissenschaftlern Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins und Kristina Toutanova von der Paul G. Allen School of CSE und der University of Washington.
Die knapp 16.000 Fragen sind gegliedert in 3.200 Fragen zur Entwicklung, 3.2000 Fragen zum Testen und 9.400 Fragen zum Trainieren von Sprachmodellen. Jede Aufgabenstellung besteht aus der Frage selbst und einem Absatz aus einem Wikipedia-Artikel, aus dem sich die richtige Antwort ableiten lässt. Die Antwort auf die Frage lautet entweder ja oder nein. Die Fragen sind so gestellt, wie sie auch im Alltag auftreten und leiten sich von echten Fragen an die Google-Suchmaschine ab.
Der BoolQ-Datensatz hat das JSON-Format (JavaScript Object Notation). Menschen erreichen beim Beantworten der Fragen von BoolQ eine Erfolgsquote von rund 90 Prozent. Direkt mit Veröffentlichung des Datensatzes getestete Sprachmodelle waren deutlich weniger erfolgreich. Die besten Modelle kamen auf gut 80 Prozent. Viele lagen weit darunter. Mittlerweile erzielen einige Sprachmodelle Erfolgsquoten von über 90 Prozent.
Motivation für die Entwicklung von BoolQ
Eine wichtige Fähigkeit von NLP-Systemen für das Verstehen und Verarbeiten natürlicher Sprache ist zu beurteilen, welche Fakten sich als richtig oder falsch aus einem Text ableiten lassen. Aus einem Text können viele Informationen gewonnen werden, die nicht direkt erwähnt sind. Ein Beispiel hierfür ist der Satz: „Max Mustermann hat die Goldmedaille für Österreich im Hochsprung bei den Weltmeisterschaften in der Leichtathletik gewonnen.“ Der Satz impliziert, dass Max Mustermann ein Leichtathlet ist, dass Österreich ein Land ist, dass Österreich mindestens eine Disziplin bei den Weltmeisterschaften gewonnen hat und Deutschland beim Hochsprung nicht den ersten Platz belegt hat.
Fragestellungen oder Aussagen zum Testen und Beurteilen der Fähigkeit von Sprachmodellen im Bereich der Natural Language Inference zu entwerfen, ist eine anspruchsvolle Aufgabe. Mit BoolQ schlagen die Autoren vor, natürlich auftretende Fragestellungen zu verwenden, wie sie beispielsweise von Menschen in Google gestellt werden. Die Fragen stammen von Personen, die nicht explizit dafür beauftragt wurden, sie zu erstellen, und die die Antworten auf ihre gestellten Fragen selbst nicht kennen. Indem ein geeigneter Wikipedia-Absatz zur Frage bereitgestellt wird, aus dem sich passende Fakten ableiten lassen, soll das Sprachmodell die richtigen Antworten auf die Frage finden. Das ist eine herausfordernde Aufgabe für Sprachmodelle, da sie umfassende Inferenz-Fähigkeiten benötigen. Ein Benchmark mit dem BoolQ-Datensatz erlaubt die Bewertung dieser Fähigkeiten.
Erstellung, Inhalt und Beispielfragen von BoolQ
BoolQ besteht aus 15.942 Fragen in englischer Sprache. Die Fragen sind jeweils mit ja oder nein zu beantworten. Der Datensatz ist in drei Teile mit 3.200 Fragen zur Entwicklung, 3.2000 Fragen zum Testen und 9.400 Fragen zum Trainieren von Sprachmodellen aufgeteilt. Jede Fragestellung besteht aus mehreren Teilen: die Frage selbst, ein Textabsatz aus Wikipedia, aus dem sich die Antwort herleiten lässt, der Titel des Wikipedia-Artikels und die richtige Antwort ja oder nein.
Die Besonderheit der Fragen von BoolQ im Vergleich zu anderen Benchmark-Datensätzen besteht darin, dass es sich um Fragen handelt, die von Menschen tatsächlich gestellt werden. Hierfür wurden echte an Google gestellten Fragen anonymisiert und gesammelt. Anschließend wurden die mit ja oder nein zu beantwortenden Fragen identifiziert. Fragen, bei denen die Suchanfrage bei Google unter den ersten fünf Ergebnissen eine Wikipedia-Seite zurücklieferte, kamen für die Aufnahme in BoolQ in Betracht. Ausgewählte Personen prüften diese Fragen hinsichtlich Kriterien wie Eindeutigkeit und Verständlichkeit, suchten entsprechende Textpassagen in den Wikipedia-Artikeln, die genügend Informationen zur Beantwortung der Fragen enthielten, und vermerkten die richtige Antwort auf die Frage ja oder nein.
Ein Beispiel für eine Fragestellung von BoolQ übersetzt ins Deutsche lautet:
Frage: Hat Frankreich einen Premierminister und einen Präsidenten?
Wikipedia-Textpassage: „... inwieweit diese Entscheidungen beim Premierminister oder Präsidenten liegen, hängt davon ab ...“
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Richtige Antwort: Ja (Premierminister und Präsident werden im Wikipedia-Artikel erwähnt. Es lässt sich daraus ableiten, dass es beide gibt.)